沈向洋:懂语言者得天下
编者按:10月30日,微软全球执行副总裁沈向洋博士走进清华大学高等研究院杰出学人讲座,发表题为《理解自然语言:描述、对话和意境》的报告。
从机器学习到机器智能,再到机器意识,沈向洋博士带领大家回顾人类在感知研究方向取得的卓越成果,并从语言理解的三个不同层次“表述、对话、意境”分析未来十年中人工智能可能实现的重大突破。
微软全球执行副总裁沈向洋博士
(以下为沈向洋博士分享的精简版文字整理)
今天有机会在这里主要是给大家讲人工智能,以及我个人认为的下一个十年中最重要的研究方向。人工智能近年来的发展近乎神速,这主要是得益于“两大一精”的进步和突破:大计算、大数据、精准模型。人工智能其实是一个非常宽泛的概念,大致上我们可以把它分为两个研究方向,感知和认知。感知中的视觉和语言进展飞速,但认知中的语言理解发展速度有限。
我们在感知研究方向已经取得了非常了不起的成果,其中一项就是语音识别。几个月前,在Switchboard标准测试数据集上,微软基于深度学习的语音识别系统的精度达到了创纪录的5.1%,这是超过专业速记员的误差水平。尽管这项语音识别系统还存在一些应用场景的限制,但是我相信未来五年之内,机器将会完全超越人类的识别水平。
在计算机视觉方面,微软亚洲研究院的研究员们两年前率先提出的152层残差神经网络给图像识别提供了更多的可能性和发展空间,过去的深度学习方法从来没有成功训练过这么深的网络。总体来看,深度学习在图像识别的趋势中是更深更准,随着近年来模型的深度越来越深,误差也会越来越低。尽管目前而言,进一步实现层数的深度突破已经不太容易,但理论上还有很多值得深挖的研究点。我预计在十年左右,人工智能的图像识别率也会全面超越人类,这势必会给人类生活带来诸多方面的影响,也包括一些新兴的商业机遇。
在下一个十年,人工智能的突破在自然语言的理解。我最近经常讲一句话,懂语言者得天下,人工智能对人类影响最为深刻的就是自然语言方面。语言理解分为三个不同的层次:表述、对话、意境。表述在今天看来已经非常成功,我们用机器学习就可以学到很多东西;对话就涉及到机器智能领域,包括对话和提问,这相对会比较困难;机器意识是意境的体现,让机器在有意识思维基础上理解和表达诸如隐喻在内的意境的能力。
首先,我用两个具体的例子说明我们从感知到语言表述方面的进展。第一个就是微软认知服务里面的Image Caption,计算机系统能够自动给图片生成标题。第二个就是微软应用软件Seeing AI,系统可以自动生成照片画面内容的表述,包括画中人物的动作甚至是表情。大家如果有兴趣可以到微软的网页上了解项目详细信息,同时我们还有很多其他视觉的服务。
我想和大家解释一下图像空间到语义空间之间的关系,我们如何让机器用文字去描述图像。首先,我们要有一个语义空间去把图像与文字联结起来,然后通过深度结构语义模型把图像和文字均表征成语义空间内的向量,在此空间中进行语义相似度计算。近几年来,我们在感知到语言表示方面其实是越做越好的,这很大程度上归功于我们将这项技术做成系统,供大众去尝试。只要大家在Caption Bot这个系统中上传一张图片,就可以轻松得到有关这张图片的语言描述。
我们做系统的原因在于,往往就算我们的想法很好,但如果没有一个能够让用户亲身体验的系统,我们很难发现自身可能存在的问题,毕竟一开始不存在完美的人工智能。我们曾经做了一个分析,对1000万张照片的标题进行机器生成内容和用户态度的对比。在这个项目中,很多用户都积极提供了问题,并且给我们提出了许多非常宝贵的修改建议。
因此,在做大数据的时候一定要去分析数据,分析能够帮助我们认识到接下来应该如何去做。这在以后的好处就是能够不断迭代,让项目可以越做越好。我相信图像描述在现实生活中的应用场景是非常丰富的,单从描述这件事情上就大有可为。
接下来我想讲的就是机器智能。我始终非常相信“对话即智能”,从回答问题到提出问题,从一问一答到连续对话。之前是机器理解,之后是问答对话生成。阅读文本及提问,首先要深度理解语言,不仅能回答问题,还要能提出问题。还有就是如何提出问题,阅读并找出关键点,围绕关键点生成问题。比如说我在读了一段文字以后,如何体现我对它的理解是到位的呢?比较了不起的就是我读完这篇文章我可以自己提问题,并且我自己还可以回答。
我简单解释一下,这里面你需要有一个记忆机制,并且要对话生成模型。同时,要在回复生成的过程中提炼主要的观点,然后综合对话情感,用户画像,以及记忆,一个对话往往会发生多次话题的转换,时间越长的对话,越有机会被自然地引导入期望的话题。
第三点我想分享一些比较新颖的东西,有关自然语言的意境。当我们从机器描述到机器对话,智能到底体现到哪里?图片可以理解和表达意境,能够实现有意识的脑补,以此和用户实现对话和交互。从客观描述到主观评论,再到天马行空的意境,就是只可意会,不可言传的境界。到现在为止,人工智能的研究是人做了一些东西,有一个表征,通过你的输入,机器把这些进来的信息做成机器的语言,再进行深度学习。今天绝大多数的人工智能的科研都是停留在这一步,真正有意义的对人类有贡献的,就是你要把结果反向推理。我们来看一下Image Caption的进步,它的表述和评论都充满了人情味。
我最后讲讲微软对话式人工智能产品的布局:第一个是智能搜索,第二个是智能助理,第三个是智能客服,第四个是智能聊天。我觉得每一次时代的变迁,都是在重新定义人类和世界的关系。在人类到世界之间,人工智能最了不起的就是对我们人脑的理解,一个叫做IQ,一个叫做EQ,任何一个时代你都要思考什么改变了我们的生活。
你也许还想看:
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。